DBpedia

DBpedia

DBpedia

DBpedia是一項從維基百科裡萃取結構化內容的專案計畫。這些計畫所得的結構化資訊,也將放在網際網路中公開讓人取閱。[1]DBpedia允許使用者查詢跟維基百科相關資源之間的關係與性質,甚至也可查詢從維基百科外連到其他資料組的內容。

維基百科的條目大部分都是沒有固定格式的文字,不過也有部分的資料是屬於結構化的資訊並且被鑲嵌在條目中,像是資訊框的表格內容(也就是預設在桌機版維基百科瀏覽格式,出現在條目右上角出現的欄位,或是行動版維基百科的條目一開始就顯示的欄位。)、分類、圖像、地理座標、以及外部網頁連結。這些結構化的資訊會在此計畫案被提取出來並且將其統一的放在一個資料集裡頭以方便查詢。

2013年9月,DBpedia發佈了第3.9版的更新。[5]如同之前版本的加強,這次也新增了維基百科更多資訊框的比對,同時也新增了維基數據的連結。(透過 owl:sameAs 的連結)。[5]此版的資料組描述了四百萬筆實體(entities),其中有322萬筆實體是在一個連貫的知識本體中進行分類,這些實體包含了832,000位人物、639,000個地景、116,000份音樂專輯、78,000部影片、18,500個電動遊戲、209,000個組織、226,000個物種以及5,600種疾病。[6]。DBpedia資料集提供了最多有119個不同語言的特色標籤以及資料摘要;現總共有2460萬個圖片連結以及2760萬筆連到外部網頁的連結資料、4500萬筆連結到其他RDF格式的資料集、6700萬筆連結到維基百科的分類頁,以及4120萬筆YAGO2分類的資料[6]。DBpedia計畫使用資源描述框架(Resource Description Framework,簡稱RDF)來呈現擷取的資料,目前包含了24.6億筆的RDF triple資料、4700萬從英文版本維基百科上擷取的資料、19.8億則來自其他的語言版本,同時有大約4,500萬的資料連往外部的資料集。[6]

從本資料集,多個頁面之間傳播的資訊可以被擷取,例如某書籍的作者資料,能夠被放在關於此書或關於作者的頁面中。

從維基百科擷取資料其中的一個重大挑戰是,相同概念可能會在資訊框以及其他的模版中被用不同的參數表示,例如|birthplace=以及|placeofbirth=意義相同。在這樣的情況下,查詢人物出生地點就必須要在這兩個參數下都有查詢才能夠得到完整的結果。於是,DBpedia的映對語言就被開發了出來,以幫助映對知識本體裡頭這些定義的異同,進而減少同義詞的重疊。有鑑於維基百科中使用資訊框以及其他數值非常的多元,開發以及改善映對語言的機制是以開源的方式徵求大眾參與[7]。

DBpedia摘取維基百科頁面上的事實資訊,讓使用者可以不用在多個維基百科條目之間瀏覽便找到問題的答案。查詢資料的方式是利用叫做SPARQL(像是SQL一類的查詢語言)來對資源描述框架(RDF)進行查詢。舉例而言,假如你對日本少女漫畫系列東京喵喵感興趣,想要找這位漫畫的繪者所創作的其他作品。DBpedia結合了維基百科上東京喵喵、征海未亞這些條目,以及相關作品諸如麗佳公主以及恋きゅー的資訊。因為DBpedia把這些資料都標準化到單一的資料庫裡頭,下列查詢就能夠在不需具體清楚哪一個條目有包含了哪一部分的片段資訊,就能夠完整的列出相關作品類型:

1
2
3
4
5
6
7
PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}

参考:
DBpedia Home page
DBpedia Wiki
W3C RDF Primer中文版
RDF Schema
YAGO wiki)
SPARQL wiki

DBpedia Spotlight

2010年6月,來自Web Based Systems Group以及柏林自由大學的研究人員開始了一個叫做「DBpedia Spotlight」的計畫,開發工具來將文字資料中使用DBpedia資源的部份加上註解。這個工具解決了過去透過DBpedia連結非結構化資訊來源到開放連結資料雲的問題。DBpedia Spotlight可展示已命名實體擷取(named entity extraction)、包含實體偵測(entity detection)以及命名衝突化解(name resolution)(也就是消歧義(disambiguation))。此工具也能在其他資訊擷取(information extraction)任務中,用來進行命名實體辨識(named entity recognition)。DBpedia Spotlight聚焦在多種不同用途的客製應用。不去聚焦於少部分的實體類型,此計畫試圖支援全部DBpedia上來自超過320個不同分類裡,共約三百五十萬個實體與概念。

DBpedia Spotlight可公開獲取,是以一個為了測試用途而提供的網路服務,或者也可以從Apache授權的Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允許開發人員在網路上的任何一頁加上註解,只要在他們的頁面上增加一行文字即可[18]用戶端也有Java或PHP的支援應用[19]。此工具可從其展示頁(demo page)裡,處理多種的英語資料[20]以及網路服務。國際化的支援部分,只要此語言有開維基百科即可支援[21]。

Home
Demo